کتاب Learning Spark: Lightning-Fast Data Analytics 2nd Edition

وضعیت موجودی موجود

مقایسه شود

قیمت قبلی: 4,800,000 ریال

قیمت: 4,400,000 ریال

Product details

Publisher ‏ : ‎ O'Reilly Media; 2nd edition (August 11, 2020)
Language ‏ : ‎ English
Paperback ‏ : ‎ 400 pages
ISBN-10 ‏ : ‎ 1492050040
ISBN-13 ‏ : ‎ 978-1492050049

Data is bigger, arrives faster, and comes in a variety of formats—and it all needs to be processed at scale for analytics or machine learning. But how can you process such varied workloads efficiently? Enter Apache Spark.

Updated to include Spark 3.0, this second edition shows data engineers and data scientists why structure and unification in Spark matters. Specifically, this book explains how to perform simple and complex data analytics and employ machine learning algorithms. Through step-by-step walk-throughs, code snippets, and notebooks, you’ll be able to:

Learn Python, SQL, Scala, or Java high-level Structured APIs
Understand Spark operations and SQL Engine
Inspect, tune, and debug Spark operations with Spark configurations and Spark UI
Connect to data sources: JSON, Parquet, CSV, Avro, ORC, Hive, S3, or Kafka
Perform analytics on batch and streaming data using Structured Streaming
Build reliable data pipelines with open source Delta Lake and Spark
Develop machine learning pipelines with MLlib and productionize models using MLflow

منابع کتاب کتاب Learning Spark: Lightning-Fast Data Analytics 2nd Edition

داده‌ها بزرگ‌تر هستند، سریع‌تر به دست می‌آیند و در قالب‌های مختلف ارائه می‌شوند - و همه باید در مقیاس برای تجزیه و تحلیل یا یادگیری ماشین پردازش شوند. اما چگونه می توانید چنین بارهای کاری متنوعی را به طور موثر پردازش کنید؟ وارد آپاچی اسپارک شوید.

این ویرایش دوم که برای گنجاندن Spark 3.0 به روز شده است، به مهندسان داده و دانشمندان داده نشان می دهد که چرا ساختار و یکپارچگی در Spark اهمیت دارد. به طور خاص، این کتاب نحوه انجام تجزیه و تحلیل داده های ساده و پیچیده و استفاده از الگوریتم های یادگیری ماشین را توضیح می دهد. از طریق مراحل گام به گام، تکه کدها و نوت بوک ها، می توانید:

APIهای ساختاری سطح بالا Python، SQL، Scala یا Java را یاد بگیرید

درک عملیات Spark و SQL Engine

عملیات Spark را با تنظیمات Spark و Spark UI بررسی، تنظیم و اشکال زدایی کنید

اتصال به منابع داده: JSON، Parquet، CSV، Avro، ORC، Hive، S3، یا Kafka

تجزیه و تحلیل را روی داده های دسته ای و جریانی با استفاده از جریان ساخت یافته انجام دهید

خطوط لوله داده قابل اعتماد با دلتا لیک و اسپارک منبع باز بسازید

خطوط لوله یادگیری ماشین را با MLlib توسعه دهید و مدل هایی را با استفاده از MLflow تولید کنید